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针对 互联 网 数据 的 新 闻 转 载 引 用 分 析 


摘 要 : 互联 网 、 大 数据 和 新 媒体 技术 的 发 展 带 来 媒体 传播 渠道 和 内 容 形 态 革命 性 变化 ,分 析 新 闻 在 不 同 渠 道 媒体 采用 和 传 
播 情况 是 构建 大 数据 驱动 采编 和 传播 决策 的 重要 组 成 部 分 ,对 于 提升 通讯 社 国内 和 国际 传播 能 力 具 有 十 分 重要 的 意义 。 然 而 ， 
由 于 互联 网 和 新 媒体 数据 格式 不 规范 、 转 载 和 引用 不 注 明 来 源 等 问题 ， 新 媒体 的 新 闻 转 载 引 用 分 析 难 度 大 。 本 文 从 多 源头 收 
集 网 站 、 电 子 报纸 、 微 信 公 众 号 、 移 动 客户 端 等 新 闻 数 据 ， 窗 盖 全 球 5000 余 家 中 英文 媒体 、40 余 万 个 新 媒体 账户 。 利 用 信 
息 智 能 比 对 技术 ， 跟 踪 新 闻 在 全 媒体 的 落地 采用 ， 构 建新 闻 转 载 和 引用 分 析 系 统 ， 为 进一步 分 析 媒 体 传 播 路 径 ， 掌 握 国内 外 
媒体 传播 规律 ， 提 升 国内 外 和 与 论 传播 力 英 定 了 基础 。 文 中 介绍 了 新 闻 转 载 引 用 分 析 的 工作 原理 和 建设 意义 ， 对 关键 技术 实现 
进行 了 深入 研究 ， 在 此 基础 上 提出 了 新 闻 转 载 引用 分 析 未 来 的 发 展 建议 。 
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性 转载 引用 的 识别 难度 更 大 。 随 着 互联 网 技术 的 发 展 ， 各 种 
互联 网 、 大 数据 和 新 媒体 技术 的 发 展 带 来 媒体 传播 渠道 。 新 媒体 不 断 涌现 ， 在 拓展 传播 边界 的 同时 也 存在 着 转载 不 规 
和 内 容 形态 革命 性 变化 。 如 何 利用 智能 分 析 技 术 ， 在 互联 网 。 范 的 问题 。 


引 


了 


大 数据 中 定位 和 跟踪 新 闻 转 载 和 引用 的 信息 ， 及 时 反映 新 闻 ”2. 新 闻 转 载 引 用 分 析 的 意义 

被 国内 外 媒体 采用 的 情况 ， 是 构建 大 数据 驱动 采编 和 传播 决 通过 分 析 新 闻 在 中 英文 网 站 、 电 子 报纸 、 微 信和 移动 客 

策 的 重要 组 成 部 分 ， 对 于 提升 通讯 社 国内 和 国际 传播 能 力 具 。” 户 端的 转载 和 引用 情况 ， 标 记 引 用 的 段落 和 句子 ,识别 采用 

有 十 分 重要 的 意义 。 媒体 、 采 用 时 间 和 采用 的 版 面 等 信息 ， 可 以 及 时 追踪 和 分 析 
本 文 从 多 源头 收集 网 站 、 电 子 报纸 、 微 信 公 众 号 、 移 动 新 闻 被 全 媒体 采用 的 情况 ， 进 而 可 以 统计 和 评估 采编 人 员 的 


客户 端 等 数据 ， 履 盖 全 球 5000 余 家 中 英文 媒体 、40 余 万 个 工作 成 果 ， 并 对 稿件 的 传播 效果 进行 分 析 ， 为 指导 进一步 提 
新 媒体 账户 ， 利 用 信息 智能 比 对 技术 ， 跟 踪 新 闻 在 全 媒体 的 高 新 闻 传播 影响 力 提 供 数 据 支持 。 


落地 采用 ， 构 建新 闻 转载 和 引用 分 析 系 统 ， 为 进一步 分 析 媒 ”3. 新 闻 转 载 引 用 分 析 工 作 原理 
体 传播 路 径 ， 掌 握 国 内 外 媒体 传播 规律 ， 提 升 国 内 外 与 论 传 本 文 提 出 一 种 基于 文本 语义 对 比 进行 新 闻 转 载 引 用 分 析 
播 力 奠定 了 基础 。 的 技术 ， 主 要 包含 新 闻 特 征 提 取 、 相 似 新 闻 聚 类 、 新 闻 转 载 
1. 新 闻 转 载 引 用 分 析 概念 引用 关系 判定 、 结 果 校 验 几 个 步骤 。 

新 闻 转 载 引用 分 析 是 针对 一 篇 原创 新 闻 ， 通 过 一 系列 技 新 闻 特征 提取 : 采用 网 页 信息 抽取 技术 提取 互联 网 新 闻 
术 手 段 分 析 海 量 实时 的 互联 网 大 数据 ， 识 别 出 其 中 转载 和 引 ”数据 特征 。 对 每 篇 稿件 ， 通 过 分 析 网 页 的 结构 ,使 用 机 带 学 
] 该 新 闻 的 媒体 。 习 与 规则 相 融 合 的 算法 抽取 出 该 新 闻 的 发 布 时 间 。 

转载 指 报 刊 或 网 站 等 媒体 上 发 布 其 他 媒体 已 经 发 表 过 的 相似 新 闻 聚 类 : 使 用 相似 簇 划 分 算法 对 采集 的 互联 网 新 


新 闻 。 在 对 内 报道 中 , 新 闻 被 媒体 全 文 转载 的 情况 比较 常见 。 ” 闻 数 据 按照 语义 相似 度 进行 划分 ， 每 个 相似 簇 内 部 的 新 闻 都 
引用 指 报刊 或 网 站 等 媒体 的 文章 中 部 分 引用 了 其 他 媒体 。 是 语义 相似 的 , 这 些 新 闻 数 据 之 间 可 能 存在 隐 式 转载 的 关系 。 
已 经 发 表 过 的 新 闻 中 的 语句 或 信息 。 在 对 外 报道 中 ， 海 外 媒 新 闻 转 载 引用 关系 判定 : 综合 相似 簇 内 新 闻 间 的 相似 度 
体 特别 是 国际 主流 媒体 通常 引用 新 闻 中 的 一 段 或 一 句 , 或 者 。 和 新 闻 的 发 布 时 间 等 信息 ， 根 据 经 验 判定 阔 值 ， 对 新 闻 的 转 
将 原文 中 的 信息 转述 表达 。 在 新 闻 报 道中 ， 引 用 的 场景 一 种 。 载 引用 关系 进行 分 析 判 定 ， 得 出 新 闻 间 的 转载 引用 关系 。 


是 引述 事实 再 展开 深入 报道 男 一 种 是 引述 观点 进而 阐述 相 结果 校 验 : 对 判定 结果 进行 再 次 校 验 。 
同 或 相反 的 观点 。 4. 新 闻 转 载 引 用 分 析 技 术 原理 
显 性 转载 引用 指 报刊 或 网 站 在 转载 或 引用 时 注 明 转载 或 系统 总 体 数据 处 理 架构 如 图 1 所 示 。 主 要 架构 设计 思路 
引用 媒体 的 情况 。 一 种 情况 是 在 转载 时 保留 电 头 ; 另 一 种 情 ”和 数据 处 理 过 程 分 为 以 下 几 个 部 分 : 
况 是 在 引用 时 指明 “ 据 某 媒体 报道 ”。 数据 引进 层 : 通过 大 规模 数据 采集 和 第 三 方 引入 的 互联 
隐 性 转载 引用 在 新 闻 的 转载 引用 中 存在 文章 中 不 注 明 来 新 闻 数 据 ， 首 先 使 用 Redis 进行 排 重 ， 然 后 进行 数据 的 预 


家 图 


源 的 情况 ， 称 为 隐 性 转载 或 引用 。 与 显 性 转载 引用 相 比 ， 隐 理 及 ETL， 形 成 规则 数据 ， 得 到 结构 化 数据 。 
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任务 调度 层 : 基于 Kafka 分 布 式 消息 队列 ， 实 现 互联 
网 数据 的 接 和 信和 缓冲 。 对 Kafka 消息 队列 里 的 数据 结合 实时 
Spark Steaming 流 式 计算 和 离线 大 规模 M/R 计算 框架 进行 间 
闻 转 载 引 用 分 析 。 

数据 存储 层 : 面 对 海 量 新 闻 数 据 ， 分 布 式 存储 可 以 实现 
高 效 的 业务 逻辑 运算 、 可 伸缩 的 存储 部 署 策略 和 高 可 用 的 宛 
余 式 存储 .MySQL 作为 转载 引用 统计 结果 的 基础 存储 数据 库 ， 
负责 数据 模型 的 定义 与 数据 积累 ， 但 不 对 外 提供 复杂 的 查询 
服务 。ElasticSearch 首先 作为 MySQL 核心 业务 表 的 镜像 进行 


沼 


图 1 


5. 新 闻 转 载 引 用 分 析 关 键 技术 
5. 1 网 页 信息 抽取 

从 网 页 源码 中 解析 内 容 信 息 ， 传 统 的 方法 一 般 会 采用 递 
归 人 解析 子 标签 的 方式 , 逐一 获取 标签 内 容 。 但 在 实际 应 用 中 ， 
该 方式 在 解析 复杂 的 网 页 源码 时 ， 复 杂 度 过 高 ， 消 耗 的 资源 
过 大 。 为 解决 这 种 问题 ， 本 文 设计 网 页 内 容 解 析 算法 ， 采 用 
XPATH 技术 与 网 页 结构 树 递 归 解 析 结合 的 方式 抽取 网 页 内 
容 。XPath 即 为 XML 路 径 语言 ， 它 是 一 种 用 来 确定 XML 文 
档 中 某 部 分 位 置 的 语言 ， 它 提供 在 数据 结构 树 中 找寻 节点 的 
能 力 。 

网 页 的 主体 内 容 信 息 一 般 都 在 特定 的 HTML 标签 或 者 其 
子 标签 下 ， 本 算法 先 通 过 XPATH 技术 获取 网 页 中 的 主体 正 
文 块 ， 对 于 每 一 个 正文 块 ， 构 造 网 页 结构 树 ， 在 结构 树 上 以 
递归 的 方式 遍历 全 部 的 标签 。 在 递归 处 理 过 程 中 ， 以 标签 全 
路 径 来 记录 遍历 过 的 路 径 ， 避 免 标签 被 重复 解析 。 在 算法 遍 
历 的 过 程 中 , 可 以 获取 网 页 所 包含 的 标题 、 正 文 、 网 页 链接 、 
来 源 、 发 布 时 间 等 信息 。 
5.2 文本 相似 度 比 对 

使 用 文本 相似 度 比 对 算法 ， 将 文本 划分 为 不 同 的 相 
似 徐 。 本 文 使 用 经 典 的 VSM (向 量 空间 模型 ) 与 Bag of 
Words(BOW) 作为 文档 表示 模型 ， 该 模型 的 基本 思想 是 将 文 
档 分 为 若干 的 特征 项 ， 通 过 对 特征 项 权重 的 量化 计算 进而 将 


数据 同步 ， 同 时 实现 多 表 关 联 和 数据 元 余 ， 提 升 查询 性 能 。 
其 次 ， 作 为 数据 服务 业务 的 实时 服务 端 ， 提 供 数据 服务 的 在 
线 查 询 。Hive 作为 数据 服务 的 离线 服务 端 ， 提 供 离线 的 大 规 
模 数据 查询 分 析 服 务 。FastDFS 作为 离散 文件 的 存储 系统 ， 
提供 图 片 、PDF 和 报告 Excel 文件 的 存储 管理 。 
集成 服务 层 : 针对 业务 需求 ， 依 托 服务 总 线 技术 将 底层 
数据 通过 灵活 多 样 的 查询 和 数据 提取 逻辑 发 布 至 上 层 服务 接 
口 ， 实 现 对 外 的 通用 服务 接口 。 基 于 Zookeeper 和 Dubbo 实 
现 服务 总 线 ， 统 一 协调 调度 ， 统 一 配置 管理 。 


集成 服 
所 引入 层 任务 调度 层 时 据 存储 层 务 层 
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系统 数据 处 理 架构 设计 


整个 文档 用 一 特征 项 的 权重 为 分 量 的 向 量 来 表示 ， 在 将 文档 
用 特征 向 量 的 方式 表示 为 数学 模型 后 ， 再 基于 特征 向 量 进行 
文档 间 的 相似 度 计算 。 使 用 TF-IDF 算法 作为 特征 项 的 权重 
值 。 文 本 相似 度 计算 的 流程 如 图 2 所 示 。 
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2 文本 相似 度 计算 处 理 流程 图 


在 文本 相似 性 比 对 算法 中 ,文本 相似 度量 算法 扮演 了 


重要 的 角色 ， 常 用 的 相似 度 度 量 方法 有 : 皮尔 逊 相关 系数 

(Pearson Correlation Coefficient ,PCC ) 、 余 弦 相 似 度 ( Cosine 
Similarity ) 、 欧 几 里 得 相似 度 (Euclidean Similarity ) 等 ， 经 
对 比 发 现 ， 皮 尔 逊 相关 系数 更 适合 本 算法 。 皮 尔 逊 相关 系数 
是 计算 两 个 向 量 线性 相关 度 的 一 个 指标 ， 其 计算 公式 如 下 : 


PF- DF-Y) 


Prr -os 
EF-DTY-D 


5. 3 新 闻 转 载 引 用 关系 构建 

基于 文本 相似 徐 ， 再 利用 网 页 新 闻 的 来 源 、 发 布 时 间 等 
言 息 ， 实 现 转 载 引 用 网 络 的 构建 。 本 文 使 用 了 图 数据 库 构 建 
与 存储 转载 引用 网 络 ， 支 持 数据 的 动态 更 新 和 多 级 转载 引用 
关系 的 查询 。 最 终 ， 利 用 网 络 路 径 追 踪 技 术 ， 可 以 追溯 每 一 
篇 新 闻 的 转载 引用 路 径 ， 定 位 追踪 新 闻 的 转载 引用 情况 。 
6. 相似 文本 矮 划 分 的 具体 技术 实现 

针对 不 同 的 应 用 场景 开发 了 两 套 相 似 文本 簇 划 分 系统 ， 
分 别 是 适合 批 处 理 的 基于 Hadoop 平台 的 相似 文本 簇 划 分 和 
适合 实时 计算 的 基于 分 布 式 内 存 实 时 计算 的 相似 文本 簇 划 
分 。 
6. 1 基于 Hadoop 平台 的 相似 文本 簇 划分 

Hadoop 作为 大 数据 处 理 领域 最 成 熟 的 解决 方案 ， 其 
以 分 布 式 文件 系统 HDFS 和 分 布 式 计 算 模 型 MapReduce 为 
代表 的 技术 在 大 数据 批 处 理 领域 取得 了 很 大 的 成 功 。 此 外 
Hadoop 拥有 完善 的 生态 系统 ， 可 以 提供 丰富 的 组 件 支 持 ， 
本 文 使 用 了 数据 挖掘 工具 包 Mahout 中 的 一 些 算法 ， 极 大 地 
简化 了 处 理 的 难度 。 
6. 2 基于 分 布 式 内 存 实时 计算 的 相似 文本 簇 划 分 

基于 分 布 式 内 存 实时 计算 的 相似 文本 艇 划分 系统 主要 针 
对 一 些 对 实时 性 要 求 比较 高 的 场景 。 该 系统 可 以 实现 亚 秒 级 
响应 的 数据 处 理 ， 处 理 框架 图 如 图 3。 
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3 ”基于 分 布 式 内 存 实时 计算 的 相似 文本 簇 划 分 处 理 框架 图 


7. 集成 及 测试 效果 
经 过 多 轮 测试 和 算法 优化 ， 目 前 中 文 文字 新 闻 转载 引 用 
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分 析 准 确 率 达 到 95% 以 上 ， 英 文 文字 新 闻 转 载 引用 分 析 准 
确 率 达 到 90% 以 上 。 
8. 面向 互联 网 大 数据 的 新 闻 转 载 引 用 分 析 的 应 用 展望 

传播 路 径 分 析 结 合 相 似 文 本 簇 划 分 对 新 闻 的 整个 传播 路 
径 进行 分 析 ， 找 到 传播 路 径 中 的 关键 媒体 或 新 媒体 账户 。 

专题 报道 分 析 针 对 专题 报道 中 的 一 组 新 闻 进 行 转 载 和 引 
用 分 析 ， 结 合 专题 的 时 间 、 地 域 、 事 件 发 展 过 程 等 分 析 总 结 
其 中 的 传播 规律 。 

与 论 引 导 力 分 析 在 一 个 新 闻 事件 的 报道 中 ， 通 过 分 析 某 
一 篇 新 闻 前 后 的 新 闻 报 道 ， 人 研究 这 篇 新 闻 起 到 了 怎样 的 与 论 
引导 作用 ， 达 成 了 怎样 的 效果 。 
结语 

2017 年 4 月 ,系统 上 线 试 运行 ， 提 供 全 社 采 编 人 员 实 时 
查询 稿件 在 全 媒体 的 采用 情况 ， 提 供 总 社 和 分 社 新 闻 采 编 业 
务 统计 数据 和 新 闻 采 编 人 员 考 核 数 据 的 基础 数据 ， 提 供 全 社 
全 媒体 报道 发 稿 、 采 用 和 互动 情况 的 大 屏 展示 ， 初 步 取 得 了 
较 好 的 效果 。 随 着 应 用 的 不 断 深入 ,采编 人 员 和 统计 人 员 都 
对 系统 提出 了 新 的 要 求 。 系 统 会 继续 针对 图 片 视频 等 多 媒体 
稿件 的 采用 分 析 、 小 语种 稿件 的 采用 分 析 等 难点 课题 进行 进 
一 步 研究 。 卓 
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